Model Selection

Multi-scenario speech processing

# Multi-scenario speech processing

Hubert Large Korean

Hubert-large-korean is a Korean automatic speech recognition model based on the Hubert architecture. It extracts features directly from speech waveforms through self-supervised learning and performs excellently in Korean speech processing.

Speech Recognition

Transformers Korean

Wav2vec2 Large Xls R 300m Slovenian

An automatic speech recognition model fine-tuned on Slovenian speech datasets based on facebook/wav2vec2-xls-r-300m

Speech Recognition

Transformers Other

Wav2vec2 Base Es Voxpopuli

Wav2Vec2 speech recognition base model pre-trained on unlabeled Spanish data from VoxPopuli

Speech Recognition

Transformers Spanish

Wav2vec2 Large Es Voxpopuli

Large-scale speech pre-training model trained on the Spanish subset of the VoxPopuli corpus, suitable for Spanish speech recognition tasks

Speech Recognition Spanish

Wav2vec2 Large Xlsr Japanese 0325 1200

This is an automatic speech recognition (ASR) model fine-tuned for Japanese speech recognition tasks based on the facebook/wav2vec2-large-xlsr-53 model.

Speech Recognition

Transformers Japanese

Wav2vec2 Large It Voxpopuli

A speech recognition model pre-trained on unlabeled Italian data from VoxPopuli, using Facebook's Wav2Vec2 architecture

Speech Recognition Other

Wav2vec2 Base Fr Voxpopuli

Wav2Vec2 base model pre-trained on unannotated French data from VoxPopuli, suitable for French speech recognition tasks

Speech Recognition

Transformers French

Wav2vec2 FR 3K Large

Large wav2vec2 model trained on 2.9K hours of French speech, supporting spontaneous speech, read speech, and broadcast speech processing

Speech Recognition French

Wav2vec2 Xls R 300m Romanian

A Romanian speech recognition model fine-tuned based on facebook/wav2vec2-xls-r-300m, achieving a WER of 12.46% on the Common Voice Romanian test set

Speech Recognition

Wav2vec2 Large Xls R 300m Hsb V2

This is an automatic speech recognition (ASR) model fine-tuned on the Upper Sorbian (HSB) dataset based on Facebook's wav2vec2-xls-r-300m model.

Speech Recognition

Transformers Other

Wav2vec2 Large Xls R 300m Or D5

This is an automatic speech recognition (ASR) model fine-tuned on the Odia dataset based on facebook/wav2vec2-xls-r-300m, specifically designed for Odia speech-to-text tasks.

Speech Recognition

Transformers Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase